"汉语助研"操作指南与案例六:对比分析
一、术语与方法说明
“汉语助研”的对比模块主要对两个字词表的用字用词的共性和差异进行对比分析,包括共用独用、频率差、频序比等。
频序比:对比两个字词表中同一字词的频率排序的比值。
例如,“坡”字在华文语料中按频率由高到低排列的字表中,顺序为223,其频序即为223;在监测语料中,“坡”字频序为1416。因此,“坡”的频序比值即为223/1416=0.16。
在进行华文语料和监测语料的对比研究时,对考察范围内的汉字的频序比从低到高排列,可以得到华文语料中出现频序相对于监测语料相差较大的汉字,在一定程度上反映了华文语料用字的特点。
频率差:对比两个字词表中同一字词频率的差值。
共独用:对比两个字词表中共同使用的字词、各自独有的字词。
共用显示了二者使用的共性,独用则显示了字词使用的特色。
二、使用指南视频
下面详细介绍使用汉语助研软件的对比分析功能。
三、使用图文步骤
接下来将为大家讲解汉语助研的“对比”功能。“对比”功能主要用于比较字表和字表或词表和词表之间用字用词的共性和差异。
步骤一,选择需要统计的“对比项目”
包括:频率差、频序比、共独用,可多选。
步骤二,输入对比字词数
在“输入对比字词数”后面的文本框中输入对比的字词数,如1000,则对比两字词表排序前1000的字词,输入为空时则对比所有字词。
步骤三,打开字词表
单击“打开第一个字词表”和“打开第二个字词表”将打开两个待对比的字词表文本文件,两个打开的文件必须同时是字表或者同时为词表。
字词表文件必须为文本文件,如,在华语语料库中用本软件“用字”或“用词”功能统计出来的字词表,也可以是别的字词表。
需同时确保各字词表的首列皆为字或词,第一行无列标题行。如多列,用制表符Tab键隔开。
步骤四,单击“设置保存文件夹”
选择或输入保存结果至本地的文件夹路径(不需要先建文件夹)。
步骤五,运行对比功能
单击“开始字词对比”,等待片刻,操作完成。打开本地文件夹即可看见字词表在对比功能运行后的结果分布情况。
四、结果展示与案例
对比中国新闻语料词表与全球华语新闻语料词表排序前5000的词
我们可以得到如下的三种对比结果 :频率差、频序比、共独用。
第一,频率差结果
某词在全球华语新闻语料中的频序减去中国新闻语料中的频序的频率差如下:
某词在中国新闻语料中的频序减去全球华语新闻语料中的频序的频率差如下:
第二,频序比结果
某词在全球华语新闻语料中的频序除以在中国新闻语料中的频序的频序比结果如下:
某词在中国新闻语料中的频序除以在全球华语新闻语料中的频序的频序比结果如下:
第三,共独用结果
中国新闻语料词表与全球华语新闻语料词表共用3668个词。
全球华语新闻语料词表独用1332个词,能显示出其特色词汇,如“缅甸”“大选”“新加坡”。
中国新闻语料词表独用1332个词,能显示出其特色词汇,如“同志”“马克思主义”“贯彻”。
该您来试试对比分析了
后台回复“汉语助研”,免费获取正式版软件。
3 后台发送“对比分析”免费获取资源
后台发送“对比分析”,免费获取批量对比分析训练用的大规模语料压缩包。4 操作指南和研究案例分享
关注公众号推文,我们将陆续推出软件的使用操作视频以及典型案例。往期推荐